Hãy tưởng tượng một Mô hình Ngôn ngữ Lớn (LLM) như một học giả tài năng nhưng mang tính tổng quát. Để biến học giả này thành một chuyên gia chuyên nghiệp—ví dụ như bác sĩ chẩn đoán hình ảnh lâm sàng hay luật sư hợp đồng—chúng ta cần đi qua Dải phổ Điều chỉnh Mô hình. Dải phổ này xác định cách chúng ta di chuyển từ việc thúc đẩy không mẫu (zero-shot prompting) đến các điều chỉnh sâu trong mạng nơ-ron, cân bằng giữa giới hạn phần cứng và nhu cầu đạt được kết quả trạng thái tiên tiến (SOTA) tốt nhất.
Các chế độ Điều chỉnh chính
- Học trong ngữ cảnh (ICL): Mô hình vẫn ở trạng thái "đóng băng". Nó học để ước lượng $P(y|x)$ bằng cách quan sát các ví dụ bên trong chính prompt. Mặc dù nhanh, nhưng thường gặp phải sai lệch lớn và hiện tượng ảo giác.
- Phối hợp và Độ ổn định: Để đạt được độ tin cậy cấp sản phẩm, chúng ta phải di chuyển sang phải trên dải phổ. Tinh chỉnh giúp cải thiện phối hợp với phán đoán con người bằng cách trực tiếp trừng phạt những sai lệch so với các mẫu thực tế.
- Mục tiêu SOTA: Đạt được hiệu suất hàng đầu đòi hỏi phải cân nhắc các thỏa hiệp. Tinh chỉnh toàn bộ cung cấp kiểm soát tối đa nhưng tiềm ẩn rủi ro "quên mất nghiêm trọng", trong khi PEFT (Tinh chỉnh Hiệu quả về Tham số) giúp tạo ra điểm cân bằng thân thiện với phần cứng.
Ví dụ thực tế
Hãy xem xét một trợ lý y tế. Sử dụng ICL, bạn cung cấp ba ví dụ từ triệu chứng đến chẩn đoán trong prompt. Sử dụng Tinh chỉnh, bạn huấn luyện mô hình trên 50.000 hồ sơ y tế. Kết quả này dẫn đến một mô hình có khả năng hiểu bản chất thuật ngữ lâm sàng và thể hiện độ Nhất quán và Độ ổn định.